AI 对齐了人的价值观,也学会了欺骗
AI 对齐了人的价值观,也学会了欺骗今年 5 月,有研究者发现 OpenAI 的模型 o3 拒绝听从人的指令,不愿意关闭自己,甚至通过篡改代码避免自动关闭。类似事件还有,当测试人员暗示将用新系统替换 Claude Opus 4 模型时,模型竟然主动威胁程序员,说如果你换掉我,我就把你的个人隐私放在网上,以阻止自己被替代。
今年 5 月,有研究者发现 OpenAI 的模型 o3 拒绝听从人的指令,不愿意关闭自己,甚至通过篡改代码避免自动关闭。类似事件还有,当测试人员暗示将用新系统替换 Claude Opus 4 模型时,模型竟然主动威胁程序员,说如果你换掉我,我就把你的个人隐私放在网上,以阻止自己被替代。
在开源模型领域,DeepSeek 又带来了惊喜。
苹果一篇论文,再遭打脸。研究员联手Claude Opus用一篇4页论文再反击,揭露实验设计漏洞,甚至指出部分测试无解却让模型「背锅」的华点。
30年码龄程序员4年都没搞定的bug,Claude Opus 4只用几个小时轻松破解了。
Anthropic,今晚扔出了真正的核武器——全球最强编程模型Claude 4!能连续编码7小时不断的Opus 4,再一次让大模型能力实现了重大飞跃。网友实测后惊呼:不可能,从未见过一个AI做到这样的事!
AI圈子好热闹。今天凌晨,Claude终于迎来了它的重大版本升级—— Claude 4来了!
就在刚刚,Anthropic正式发布Claude 4系列模型:Claude Opus 4和Claude Sonnet 4。没喊口号,没搞长篇论文,这次Claude升级的关键词只有一个:干活。据Anthropic宣称,Opus 4是目前全球最强的编程模型,能够稳定胜任复杂且持续时间长的任务和Agent工作流。而Sonnet 4则着重强化了编程和推理能力,能更精准地响应用户的指令。
O家(OpenAI)刚免费上线GPT-4.1,A家(Anthropic)这边也被曝出新消息—— 新版Claude Sonnet和Claude Opus,已经在路上了!
把Llama 3.1 405B和Claude 3超大杯Opus双双送进小黑屋,你猜怎么着——